本篇將會跟各位探討,利用python 網路爬蟲攝取資料時的問題,大部分會是以本人遇到的來做探討,若是沒遇過的沒有參考性,本人將不會提出。
首先我們做爬蟲動作必須都要了解什麼是HTML架構,為何要知道HTML架構,對於本人一開始學習爬蟲學習時其實壓根沒理他,因為覺得說需要的時候再去探討就好,但是真的做到後來有點錯了,因為你會遇到的網路資料類型有時候會藏在一些你不知道的地方,通常我們所知道的就是,打開檢查看,DOC 或是 XHR 但是如果兩個都沒有要的呢?事實上可以直接使用整個網站Copy下來,但是因為屬性通常會過於複雜所以沒有做這個動作,所以我們才去找Network,但是往往都會想得過於簡單可能都會知道說他的連結通常都會在第一 或 第二,但是通常NetWork會給你的資訊都是一大堆,所以這時候我們該怎麼去認別我們所需要的屬性呢?
一,一樣打開檢查 進入 NetWork
二,將查看 DOC 以及 XHR 並且針對每個連接上直接使用 Ctrl + F 搜尋功能,直接找尋關鍵字,但是這裡要注意因為她找尋的資料為 Unicode 碼 所以中文將會被呈現一個怪異的編號 例如 U/7538 所以搜尋時要盡量針對英文的字母來下手。
本人也是用這方式慢慢找尋自己所要的屬性,找到以後再看出他是需要 get 還是 post 再用對應的模組將牠抓取下來,再利用 Bs4 去解析網站 將所要的資料一一讀取,並且儲存,這個即是後來學習比較久的做法,通常初心者很容易上手是將東西抓下,但是後來不知道怎麼找的時候就會比較容易荒,本人在這就提供這種方法給各位,各位可以去學習看看這個做法。
下一篇本人將拿出曾經在外有利用書籍來訓練自己的爬蟲能力的程式,使用到的模組有 request , bs4 以及 Selenium ,外加的模組可能看到的是辨識的模組,我會略為提到一些但是無法深入探討,本人很不專業真的很拍謝~~,但是跟主題機器學習以及Data相關都會盡量提及進去。
本篇為不專業的AI介紹,謝謝各位,那我們下篇見~~~~